变形金刚可以学会在以前看不见的输入/输出域中可靠地执行算法麦克风任务吗?虽然预先训练的语言模型在结合算法推理的基准标记上显示出稳定的准确性,因此,这些结果的可靠性必须具有清除记忆中清洁模型功能功能的能力。在本文中,我们提出了一个算法基准,该基准构成了无限输入域的六个任务,在该域中,我们还可以分离并追踪任务所需的正确,可靠的算法。这使我们能够评估(i)模型的外推能力,以外地观察到的输入类型,包括新的长度,价值范围或输入域,以及(ii)通过其注意图的镜头评估最近模型中功能机制的鲁棒性。我们将公开可用的所有任务和互操作性方法提出。1
主要关键词